<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>索引时输入即搜索 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/_index_time_search_as_you_type.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/_index_time_search_as_you_type.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/_index_time_search_as_you_type.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/_index_time_search_as_you_type.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="search-in-depth.html">深入搜索</a></span>
»
<span class="breadcrumb-link"><a href="partial-matching.html">部分匹配</a></span>
»
<span class="breadcrumb-node">索引时输入即搜索</span>
</div>
<div class="navheader">
<span class="prev">
<a href="_ngrams_for_partial_matching.html">« Ngrams 在部分匹配的应用</a>
</span>
<span class="next">
<a href="ngrams-compound-words.html">Ngrams 在复合词的应用 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="_index_time_search_as_you_type"></a>索引时输入即搜索<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/130_Partial_Matching/35_Search_as_you_type.asciidoc">edit</a>
</h2>
</div></div></div>
<p>设置索引时输入即搜索的第一步是需要定义好分析链，我们已在 <a class="xref" href="configuring-analyzers.html" title="配置分析器">配置分析器</a> 中讨论过，这里会对这些步骤再次说明。</p>
<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_准备索引"></a>准备索引<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/130_Partial_Matching/35_Search_as_you_type.asciidoc">edit</a>
</h3>
</div></div></div>
<p>第一步需要配置一个自定义的 <code class="literal">edge_ngram</code> token 过滤器，称为 <code class="literal">autocomplete_filter</code> ：</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">{
    "filter": {
        "autocomplete_filter": {
            "type":     "edge_ngram",
            "min_gram": 1,
            "max_gram": 20
        }
    }
}</pre>
</div>
<p>这个配置的意思是：对于这个 token 过滤器接收的任意词项，过滤器会为之生成一个最小固定值为 1 ，最大为 20 的 n-gram 。</p>
<p>然后会在一个自定义分析器 <code class="literal">autocomplete</code> 中使用上面这个 token 过滤器：</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">{
    "analyzer": {
        "autocomplete": {
            "type":      "custom",
            "tokenizer": "standard",
            "filter": [
                "lowercase",
                "autocomplete_filter" <a id="CO95-1"></a><i class="conum" data-value="1"></i>
            ]
        }
    }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO95-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>自定义的 edge-ngram token 过滤器。</p>
</td>
</tr>
</table>
</div>
<p>这个分析器使用 <code class="literal">standard</code> 分词器将字符串拆分为独立的词，并且将它们都变成小写形式，然后为每个词生成一个边界 n-gram，这要感谢 <code class="literal">autocomplete_filter</code> 起的作用。</p>
<p>创建索引、实例化 token 过滤器和分析器的完整示例如下：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">PUT /my_index
{
    "settings": {
        "number_of_shards": 1, <a id="CO96-1"></a><i class="conum" data-value="1"></i>
        "analysis": {
            "filter": {
                "autocomplete_filter": { <a id="CO96-2"></a><i class="conum" data-value="2"></i>
                    "type":     "edge_ngram",
                    "min_gram": 1,
                    "max_gram": 20
                }
            },
            "analyzer": {
                "autocomplete": {
                    "type":      "custom",
                    "tokenizer": "standard",
                    "filter": [
                        "lowercase",
                        "autocomplete_filter" <a id="CO96-3"></a><i class="conum" data-value="3"></i>
                    ]
                }
            }
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Search_as_you_type.json"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO96-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>参考 <a class="xref" href="relevance-is-broken.html" title="被破坏的相关度！">被破坏的相关度</a> 。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO96-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>首先自定义 token 过滤器。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO96-3"><i class="conum" data-value="3"></i></a></p>
</td>
<td align="left" valign="top">
<p>然后在分析器中使用它。</p>
</td>
</tr>
</table>
</div>
<p>可以拿 <code class="literal">analyze</code> API 测试这个新的分析器确保它行为正确：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/_analyze?analyzer=autocomplete
quick brown</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Search_as_you_type.json"></div>
<p>结果表明分析器能正确工作，并返回以下词：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
<code class="literal">q</code>
</li>
<li class="listitem">
<code class="literal">qu</code>
</li>
<li class="listitem">
<code class="literal">qui</code>
</li>
<li class="listitem">
<code class="literal">quic</code>
</li>
<li class="listitem">
<code class="literal">quick</code>
</li>
<li class="listitem">
<code class="literal">b</code>
</li>
<li class="listitem">
<code class="literal">br</code>
</li>
<li class="listitem">
<code class="literal">bro</code>
</li>
<li class="listitem">
<code class="literal">brow</code>
</li>
<li class="listitem">
<code class="literal">brown</code>
</li>
</ul>
</div>
<p>可以用 <code class="literal">update-mapping</code> API 将这个分析器应用到具体字段：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">PUT /my_index/_mapping/my_type
{
    "my_type": {
        "properties": {
            "name": {
                "type":     "string",
                "analyzer": "autocomplete"
            }
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Search_as_you_type.json"></div>
<p>现在创建一些测试文档：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">POST /my_index/my_type/_bulk
{ "index": { "_id": 1            }}
{ "name": "Brown foxes"    }
{ "index": { "_id": 2            }}
{ "name": "Yellow furballs" }</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Search_as_you_type.json"></div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_查询字段"></a>查询字段<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/130_Partial_Matching/35_Search_as_you_type.asciidoc">edit</a>
</h3>
</div></div></div>
<p>如果使用简单 <code class="literal">match</code> 查询测试查询 “brown fo” ：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/my_type/_search
{
    "query": {
        "match": {
            "name": "brown fo"
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Search_as_you_type.json"></div>
<p>可以看到两个文档同时 <em>都能</em> 匹配，尽管 <code class="literal">Yellow furballs</code> 这个文档并不包含 <code class="literal">brown</code> 和 <code class="literal">fo</code> ：</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">{

  "hits": [
     {
        "_id": "1",
        "_score": 1.5753809,
        "_source": {
           "name": "Brown foxes"
        }
     },
     {
        "_id": "2",
        "_score": 0.012520773,
        "_source": {
           "name": "Yellow furballs"
        }
     }
  ]
}</pre>
</div>
<p>如往常一样， <code class="literal">validate-query</code> API 总能提供一些线索：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/my_type/_validate/query?explain
{
    "query": {
        "match": {
            "name": "brown fo"
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Search_as_you_type.json"></div>
<p><code class="literal">explanation</code> 表明查询会查找边界 n-grams 里的每个词：</p>
<pre class="literallayout">name:b name:br name:bro name:brow name:brown name:f name:fo</pre>

<p><code class="literal">name:f</code> 条件可以满足第二个文档，因为 <code class="literal">furballs</code> 是以 <code class="literal">f</code> 、 <code class="literal">fu</code> 、 <code class="literal">fur</code> 形式索引的。回过头看这并不令人惊讶，相同的 <code class="literal">autocomplete</code> 分析器同时被应用于索引时和搜索时，这在大多数情况下是正确的，只有在少数场景下才需要改变这种行为。</p>
<p>我们需要保证倒排索引表中包含边界 n-grams 的每个词，但是我们只想匹配用户输入的完整词组（ <code class="literal">brown</code> 和 <code class="literal">fo</code> ），可以通过在索引时使用 <code class="literal">autocomplete</code> 分析器，并在搜索时使用 <code class="literal">standard</code> 标准分析器来实现这种想法，只要改变查询使用的搜索分析器 <code class="literal">analyzer</code> 参数即可：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/my_type/_search
{
    "query": {
        "match": {
            "name": {
                "query":    "brown fo",
                "analyzer": "standard" <a id="CO97-1"></a><i class="conum" data-value="1"></i>
            }
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Search_as_you_type.json"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO97-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>覆盖了 <code class="literal">name</code> 字段 <code class="literal">analyzer</code> 的设置。</p>
</td>
</tr>
</table>
</div>
<p>换种方式，我们可以在映射中，为 <code class="literal">name</code> 字段分别指定 <code class="literal">index_analyzer</code> 和 <code class="literal">search_analyzer</code> 。因为我们只想改变 <code class="literal">search_analyzer</code> ，这里只要更新现有的映射而不用对数据重新创建索引：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">PUT /my_index/my_type/_mapping
{
    "my_type": {
        "properties": {
            "name": {
                "type":            "string",
                "index_analyzer":  "autocomplete", <a id="CO98-1"></a><i class="conum" data-value="1"></i>
                "search_analyzer": "standard" <a id="CO98-2"></a><i class="conum" data-value="2"></i>
            }
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Search_as_you_type.json"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO98-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>在索引时，使用 <code class="literal">autocomplete</code> 分析器生成边界 n-grams 的每个词。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO98-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>在搜索时，使用 <code class="literal">standard</code> 分析器只搜索用户输入的词。</p>
</td>
</tr>
</table>
</div>
<p>如果再次请求 <code class="literal">validate-query</code> API ，当前的解释为：</p>
<pre class="literallayout">name:brown name:fo</pre>

<p>再次执行查询就能正确返回 <code class="literal">Brown foxes</code> 这个文档。</p>
<p>因为大多数工作是在索引时完成的，所有的查询只要查找 <code class="literal">brown</code> 和 <code class="literal">fo</code> 这两个词，这比使用 <code class="literal">match_phrase_prefix</code> 查找所有以 <code class="literal">fo</code> 开始的词的方式要高效许多。</p>
<div class="sidebar">
<div class="titlepage"><div><div>
<p class="title"><strong>补全提示（Completion Suggester）</strong></p>
</div></div></div>
<p>使用边界 n-grams 进行输入即搜索（search-as-you-type）的查询设置简单、灵活且快速，但有时候它并不够快，特别是当试图立刻获得反馈时，延迟的问题就会凸显，很多时候不搜索才是最快的搜索方式。</p>
<p>Elasticsearch 里的 <a href="https://www.elastic.co/guide/en/elasticsearch/reference/5.6/search-suggesters-completion.html" class="ulink" target="_top">completion suggester</a> 采用与上面完全不同的方式，需要为搜索条件生成一个所有可能完成的词列表，然后将它们置入一个 <em>有限状态机（finite state transducer）</em> 内，这是个经优化的图结构。为了搜索建议提示，Elasticsearch 从图的开始处顺着匹配路径一个字符一个字符地进行匹配，一旦它处于用户输入的末尾，Elasticsearch 就会查找所有可能结束的当前路径，然后生成一个建议列表。</p>
<p>本数据结构存于内存中，能使前缀查找非常快，比任何一种基于词的查询都要快很多，这对名字或品牌的自动补全非常适用，因为这些词通常是以普通顺序组织的：用 “Johnny Rotten” 而不是 “Rotten Johnny” 。</p>
<p>当词序不是那么容易被预见时，边界 n-grams 比完成建议者（Completion Suggester）更合适。即使说不是所有猫都是一个花色，那这只猫的花色也是相当特殊的。</p>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_边界_n_grams_与邮编"></a>边界 n-grams 与邮编<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/130_Partial_Matching/35_Search_as_you_type.asciidoc">edit</a>
</h3>
</div></div></div>
<p>边界 n-gram 的方式可以用来查询结构化的数据，比如 <a class="xref" href="prefix-query.html" title="prefix 前缀查询">本章之前示例</a> 中的邮编（postcode）。当然 <code class="literal">postcode</code> 字段需要 <code class="literal">analyzed</code> 而不是 <code class="literal">not_analyzed</code> ，不过可以用 <code class="literal">keyword</code> 分词器来处理它，就好像他们是 <code class="literal">not_analyzed</code> 的一样。</p>
<div class="tip admon">
<div class="icon"></div>
<div class="admon_content">
<p><code class="literal">keyword</code> 分词器是一个非操作型分词器，这个分词器不做任何事情，它接收的任何字符串都会被原样发出，因此它可以用来处理 <code class="literal">not_analyzed</code> 的字段值，但这也需要其他的一些分析转换，如将字母转换成小写。</p>
</div>
</div>
<p>下面示例使用 <code class="literal">keyword</code> 分词器将邮编转换成 token 流，这样就能使用边界 n-gram token 过滤器：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">{
    "analysis": {
        "filter": {
            "postcode_filter": {
                "type":     "edge_ngram",
                "min_gram": 1,
                "max_gram": 8
            }
        },
        "analyzer": {
            "postcode_index": { <a id="CO99-1"></a><i class="conum" data-value="1"></i>
                "tokenizer": "keyword",
                "filter":    [ "postcode_filter" ]
            },
            "postcode_search": { <a id="CO99-2"></a><i class="conum" data-value="2"></i>
                "tokenizer": "keyword"
            }
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/35_Postcodes.json"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO99-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">postcode_index</code> 分析器使用 <code class="literal">postcode_filter</code> 将邮编转换成边界 n-gram 形式。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO99-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">postcode_search</code> 分析器可以将搜索词看成 <code class="literal">not_analyzed</code> 未分析的。</p>
</td>
</tr>
</table>
</div>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="_ngrams_for_partial_matching.html">« Ngrams 在部分匹配的应用</a>
</span>
<span class="next">
<a href="ngrams-compound-words.html">Ngrams 在复合词的应用 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>